کاربرد روش يادگيري تقويتي براي تعيين دستورالعمل بهرهبرداري برحسب درخواست توزيع و تحويل بهينة آب چکيده

ص) )8-9 تحقيقات آب و خاک ايران دورة 46 شمارة تابستان 94 کاربرد روش يادگيري تقويتي براي تعيين دستورالعمل بهرهبرداري برحسب درخواست توزيع و تحويل بهينة آب * کاظم شاهوردي محمدجواد منعم مجيد نيلي. دانشجوی دکتری سازههای آبی دانشگاه تربیت مدرس. دانشیار گروه سازههای آبی دانشگاه تربیت مدرس. استاد مهندس برق دانشگاه تهران )تاریخ دریافت: 9 / 6 / 4 تاریخ تصویب: )9 / / 5 چکيده یکی از رویکردهای مؤثر تحویل و توزیع آب در شبکههای آبیاری روش برحسب درخواست است که با توجه به ساختار هر شبکه قابل اجراست اما به استخراج دستورالعمل بهرهبرداری نیاز دارد. در این تحقیق مدل تعیین دستورالعمل بهرهبرداری روش برحسب درخواست با الگوریتم یادگیری تقویتی سارسای فازی (FSL) توسعه داده شد و در کانال شبکة آبیاری دز آزمون شد. ورودی این الگوریتم دبیهای درخواستشده و خروجی آن دستورالعمل بهرهبرداری سازههاست. برای ارزیابی نتایج دو سناریویی که اجرا شد شاخصهای ارزیابی عمق و دبی به کار رفت. نتایج نشاندهندة توانایی FSL در همگرایی و استخراج الگوها بود. مثال در سناریوی که در آن دبی آبگیرهای 5 و 6 از 0 / متر مکعب در ثانیه به 0 / متر مکعب در ثانیه افزایش یافته است و سایر آبگیرها بستهاند حداقل مقدار شاخصهای راندمان و کفایت برابر 0 / 989 و 0 / 994 و حداکثر مقدار شاخصهای خطای مطلق حداکثر و تجمعی برابر 8 / 4 و 7 / 4 درصد به دست آمد. با توجه به نتایج FSL را میتوان در تنظیمات سازهها به صورت دستی برای روشهای برحسب درخواست به کار برد. کليدواژگان: توزیع و تحویل آب دستورالعمل بهرهبرداری یادگیری سارسای فازی. * مقدمه ارتقای بهرهوری مصرف آب در بخش کشاورزی که بزرگترین مصرفکنندة آب است اهمیت زیادی در بهبود مصرف آب دارد. روشهای توزیع و تحویل آب در شبکههای آبیاری تأثیری تعیینکننده در بهبود بهرهوری آب دارند. محققان از دهههای گذشته به کانالهای * برنامهریزی توزیع و تحویل آب و عوامل مؤثر بر آن در کردهاند توجه آبیاری مختلف بهرهبرداری معرفی شده است. و بر همین اساس روشهای در برنامهریزی تحویل و توزیع آب باید سه عامل دبی مدت زمان و تناوب تعیین شود. ثابت یا متغیر بودن این عوامل و سطح تصمیمگیری در آنها روشهای بهرهبرداری متنوع را با انعطافپذیری متفاوت به وجود میآورد شامل روش گردشی روش بر حسب تمایل و روش برحسب درخواست ( e Mahur.)al., 009 در صورتی که دبی مدت زمان و تناوب ثابت و از پیش تعیین شده باشند برنامهریزی تحویل آب را گردشی مینامند. این روش معمولترین روش توزیع آب در شبکههای نویسندة مسئول: javadmonem@gmail.com آبیاری بهخصوص در شبکههای سنتی است که پایینترین سطح انعطافپذیری را دارد. در روش بر حسب تمایل هر زارع میتواند دبی مورد نظر خود را در هر زمانی و به هر مدتی که تمایل داشته باشد با لحاظ محدودیتهای فیزیکی سیستم تحویل بگیرد. این روش نیازمند زیرساختهای مخصوص از نظر ظرفیت شبکه و سامانههای کنترل خودکار است و حداکثر انعطافپذیری را دارد. با توجه به ساختار شبکههای موجود روش برحسب درخواست ضمن انعطافپذیرتربودن نسبت به روش گردشی در شبکههای آبیاری قابل کاربرد است. روش برحسب درخواست از نظر انعطافپذیری و هزینه مابین روش گردشی و روش برحسب تمایل است طوری که از یک طرف نسبت به روش گردشی انعطافپذیری بیشتر دارد و از طرف دیگر نیازمند زیرساختهای پرهزینة روش بر حسب تمایل نیست و به صورت دستی قابل اجراست (0.(Bur, در این روش زارعان میزان آب مورد نیاز را از قبل اعالم میکنند. مدیریت شبکه باید با توجه به میزان آب موجود و درخواست زارعان به گونهای برای تحویل آب و تنظیم سازهها برنامه بریزد که نیازها را به مناسبترین وجه تأمین کند. با توجه به تعداد زیاد سازههای آببند و آبگیر در یک کانال چالش مهمی که در این روش وجود دارد نحوة استخراج. Roaional. On-will or On-demand. On-reques

84 تحقيقات آب و خاک ايران دورة 46 شمارة تابستان 94 دستورالعمل بهرهبرداری است. منظور از دستوالعمل بهرهبرداری در این تحقیق زمان و میزان تنظیم سازههای آببند و آبگیر است. با توجه به اینکه سازههای آبگیر باالدست هر آببند در مجاورت آن قرار دارند آببند و آبگیرهای مجاور و باالدست آن همزمان تنظیم میشوند. سال برنامهریزی توزیع و تحویل آب در کانالهای آبیاری در 986 فرمولبندی شد (Suryavanshi and Reddy,.986) برنامة توزیع در این تحقیق با استفاده از برنامهریزی خطی 0 و توزیع و تحویل در سال شد. ارائه آب بهینة 995 انشعابات بین فرم اصالحشدة مختلف مدل کانال یادشده پیشنهاد شد که در آن مفهوم لولههای جریان جهت تحویل آب به انشعابات واقع در کانال توزیع به کار رفت (Wang e al., قرن اوایل از (995. بیستویکم محققان به از استفاده الگوریتمهای فراکاوشی در بهینهسازی توزیع و تحویل آب در شبکههای بهینهسازی هشت انشعاب روش کارایی 008 سال کردند. توجه آبیاری ژنتیک در برنامهریزی توزیع و تحویل آب در کانالی با بررسی و با نتایج روش برنامهریزی صحیح که De (004) Vries and Anwar ارائه کردند مقایسه شد و برتری آن نسبت به برنامهریزی صحیح آشکار شد (008 al.,.(haq e در ایران در سال 00 مدلی برای ارزیابی عملکرد و بهینهسازی بهرهبرداری از کانالهای آبیاری توسعه داده شد.)Mohseni Movahed and Monem, 00( بهینهسازی هیدرودینامیک تابکاری )SA( فلزات ICSS در این مدل روش در ترکیب با مدل استفاده شد. همگرایی خوب مدل رسیدن به جوابهای معتبر و پذیرفتنی را در این مدل تسهیل کرد. در (005) تحقیقNamdarian Monem and SAو با استفاده از روش با هدف حداقلکردن ظرفیت کانال توزیع و تعداد عملیات بهرهبرداری دریچهها مدلی پیشنهاد شد که در آن دبی زمان و ترتیب تحویل آب به انشعابات متغیرهای تصمیم انتخاب شدند. نتایج این روش با نتایج مطالعات )995( Wang e al. مقایسه و کارایی آن نشان داده شد. روشهای فراکاوشی ژنتیک و هوش جمعی ذرات در بهینهسازی توزیع و تحویل آب در شبکة آبیاری فومنات و ورامین به کار رفت Mnem e al., 007; Monem ( Nouri, 00.)and بررسی مطالعات نشان میدهد بسته به روش توزیع و تحویل آب هر متغیرهای تصمیم متفاوتی از روشهای فراکاوشی این مطالعات از یک و هدف توابع را در فرمولبندی لحاظ کرده و با یکی جوابهای بهینه را تعیین کردهاند. تحقیقات یادشده با فرض روش توزیع و تحویل گردشی به حل مسئله و بهینهسازی آن پرداختهاند و سایر روشهای توزیع و تحویل را بررسی نکردهاند. د تق روش یادگیری تقویتی یکی از روشهایی است که میتواند به منظور تحویل آب با روش بر زیاد حسب درخواست با استفاده شود. این روش با توجه به شبیهسازی هیدرولیکی جریان توسط مدل شبیهساز )در این تحقیق مدل )ICSS سارسای فازی عمل یادگیری را انجام میدهد. روش یادگیری تقویتی صنایع و کنترل رباتها (FSL: Fuzzy Sarsa Learning) ( استفاده به طور موفق در Glorennec and Jouffe, 997; Derhami, 007; Derhami e al., 008; Kaelbling e )al., 996 و قابلیتهای آن در مهندسی کنترل بررسی شده است. در نتیجه میتواند برای تعیین دستورالعمل بهرهبرداری در روش بر حسب درخواست در شبکههای آبیاری نیز به کار رود. در این تحقیق ضمن معرفی الگوریتم FSL مدل ریاضی آن برای تعیین دستورالعمل بهرهبرداری )زمان و میزان تنظیم سازههای آببند و آبگیر( بر حسب درخواست توسعه داده شد و در کانال معرفي الگوريتم FSL سیستم یک خروجی و از شبکة دز آزمون شد. TSK فازی n با را صفر مرتبة R قانون به فرم رابطة در نظر بگیرید یک و ورودی Glorennec ( :)and Jouffe, 997 ) )رابطة s = x x n n بردار n شامل L i = L i L in تعداد m قانون iامین دریچه( برای هر قانون بعدی متغیرهای وضعیت ورودی مجموعة فازی با مرکزهای یکتا برای کنشهای α ij ممکن گسستة )بازشدگی jامین کنش کاندید در قانون i ما و w ij مقدار ارزش تقریبزدهشده برای کنش j ما تابع تعلق این سیستم با دو ورودی و Q در قانون i ما Q صورت شکل به F(α) یادگیری با استفاده از وزنهای سیستم به صورت رابطة است. )رابطة R : If x is L and... and x is L, i i n in im i i است. و تابع خروجی است. خروجی سیستم طی فرایند wij ) استخراج میشود. قاعدة این. Takagi-Sogeno and Kang im hen wih value w or... or wih value w R : If x is L and x is L hen F. Simulaed Annealing. Mea-heurisic

85 شاهوردي و همکاران: کاربرد روش يادگيري تقويتي براي تعيين... )رابطة 7( w Q ( s, a ) ( s ) if j i ij i 0 oherwise نرخ آموزش است و بهروزرسانی مقادیر w را کنترل میکند. مقادیر آن بر اساس تجربه و نوع مسئله تعیین میشود. شکل. شکل شماتيک سيستم استنتاجي TSK در هر تکرار یک کنش از میان m کنش کاندیدشده بر مبنای مقدار وزن آن کنش انتخاب میشود و آنگاه کنش نهایی از ترکیب وزندار این کنشها به دست میآید. مقادیر اولیة w ij برابر 0 است. با توجه به پاداش دریافتشده مقادیر w ij در طول فرایند یادگیری بهروز میشود. خروجی سیستم یعنی کنش a a نشان داده ( s در وضعیت s )شرایط جریان در کانال( با ) میشود ( شمارة تکرار است( و با رابطة به دست میآید. ارزش کنش یادشده با رابطة 4 محاسبه میشود: )رابطة )رابطة قاعدة i ما R a ( s ) ( s ) a i ii i R Q ( s, a ) ( s ) w ii i i ) ) 4 a ii و است. ii w کنش انتخابشده و وزن مرتبط با آن در مقدار تعلق قانون i ما اندیس کنش + i و انتخابشده در قانون iام است. کنش در این روش با رابطة 5 انتخاب میشود. )رابطة 5( p( u ) ij e m e j ij i w ij i w ضریب دماست. ضریب دما بین تجربیات گذشته و اکتشافهای جدید تعادل ایجاد میکند و مقدار آن در طول فرایند یادگیری به تدریج کاهش مییابد. مقادیر اولیة را آن کاربر بر اساس تجربه و نوع مسئله انتخاب میکند. معموال مقدار ضریب دما در ابتدای آموزش بزرگ است و در حین آموزش هر چه جلو میرویم با استفاده از رابطة 6 کاهش مییابد تا از تجربیات قبلی بیشتر استفاده شود: 0 d. )رابطة 6 ) 0 مقدار اولیة دما و d مقدار تغییر جزئی دماست که 7 مقادیر آنها در این تحقیق به ترتیب 0 و 0 / 008 در نظر گرفته شد. در صورتی که نسبت ارزش یک کنش به مقدار دما خیلی بزرگ شود فرایند یادگیری تمام و مدل همگرا میشود. پس از اعمال کنش بر محیط مقدار پارامترهای وزن هر قانون با رابطة بهروزرسانی میشود: مقدار خطای ارزش کنش با رابطة 8 محاسبه میشود. )رابطة Q ( s, a ) r Q ( s, a ) Q ( s, a ) ضریب وزنی ارزش پاداش تکرار را در تکرار + ) 8 نشان میدهد. مقدار آن بین تعیین میشود. مقدار پاداش )رابطة 9( و 0 (r) است و با آزمون و خطا با رابطة 9 به دست میآید: y y 0. y r 0 arg e arg e y y 0. y r arg e arg e 00 ( dqc dq ) 0.0 و از دبی تحویلی در آببند و آبگیر به ترتیب مقدار انحراف دبی درخواستی مشاهدهای و عمق هدف در محل آببند است. y و arg e به FSL عمق یادگیری دستورالعمل بهرهبرداری با استفاده از الگوریتم طور مختصر در ادامه معرفی میشود:. مشاهدة وضعیت + s استفاده از رابطة 9 و دریافت پاداش تقویتی r +.. از محیط با انتخاب کنش مناسب برای هر قاعده با استفاده از رابطة 5 محاسبة تقریبزدهشده + a نهایی خروجی Q با ( s, a ).4 محاسبة Q محاسبة 5. ارزش مقدار و استفاده از روابط و 4 و بهروزرسانی w با روابط 7 و 8 کنش ارزش مقدار تقریبزدهشدة کنش جدید Q با استفاده از رابطة 4 ( s, a ) 6. اعمال خروجی جدید به محیط و شبیهسازی با استفاده از مدل هیدرودینامیک ICSS y dq dqc 7. اصالح پارامتر و تکرار این مراحل تا همگرا شدن. احتمال انتخاب کنش با رابطة 5 محاسبه میشود. در این روش با توجه به مقدار دما ( ( و مقدار ارزش همة کنشهای گسسته در وضعیت مورد نظر ) w ) در هر تکرار احتمال انتخاب همة کنشها محاسبه و در نهایت کنشی که بیشترین احتمال را داشته باشد به عنوان کنش نهایی انتخاب میشود. با توجه به ثابتبودن مقادیر ضریب در رابطة 5 برای یک وضعیت i

86 تحقيقات آب و خاک ايران دورة 46 شمارة تابستان 94 وقتی مقدار w کم باشد احتمال انتخاب همة انتخاب کنش تصادفی است. طی فرایند یادگیری با افزایش کنشها یکسان و w کنشهای با w باال انتخاب میشوند. در نهایت مدل با بهترین کنش که بیشترین w را دارد همگرا میشود ( and Glorennec.)Jouffe, 997 کانال مورد تحقيق به منظور آزمون قابلیت روش بهرهبرداری از قسمتی از کانال FSL در تعیین دستورالعملهای از شبکة دز استفاده شد. کانال سه آببند و شش آبگیر جانبی از نوع دریچة کشویی دارد که به صورت دستی از آن بهرهبرداری میشود. طول این کانال 80 / 5 متر مقطع آن ذوزنقهای پوشش کانال بتنی و حداکثر ظرفیت آن / 47 متر مکعب بر ثانیه است. شیب کانال از 0 / 000 تا 0 / 005 متغیر است. عرض کف از ابتدای کانال تا آببند به / 5 معادل متر و از این نقطه تا محل آببند معادل متر است. شیب جانبی کانال در سراسر مسیر / 5 افقی میآید: در قائم است. شاخصهاي ارزيابي شاخصه یا مبتنی شماتیک کانال نمای شکل. نماي شماتيک کانال در شکل بر دبی شامل شاخصهای کفایت و راندمان تحویل آب )990 Gaes, )Molden and برای بررسی عملکرد تنظیم آبگیرها و شاخصه یا شاخصهای خطای مطلق حداکثر تجمعی مبتنی (MAE) (Clemmens e al., 998) (IAE) مطلوبیت عملکرد سازهه یا شامل بر عمق و خطای مطلق بررسی برای تنظیم استفاده شده است. شاخص خطای مطلق حداکثر منعکسکنندة حداکثر انحرافی است که مدل در ثابت نگهداشتن سطح آب در عمق هدف دارد و شاخص خطای مطلق تجمعی نشاندهندة متوسط انحراف عمق آب از عمق هدف است. این شاخصها به ترتیب به صورت روابط 0 تا )رابطة 0( )رابطة ( )رابطة ( )رابطة ( MPA MPE MAE IAE N M N N M N T D M M ( PA ), ( PE ), max( y y ) D T 0 y arg e arg e ( y y ) y arg e arg e QD PA IF QR QD QR QD PA IF QR QR PE IF QR QD QD PE IF QR QD در این روابط MPA شاخص کفایت MPE راندمان M درخواستی در آبگیر تعداد آبگیرها QR QD M N M شاخص دبی مورد نیاز یا دبی دبی واقعی تحویلی به آبگیر تعداد گامهای زمانی مناسب در یک دورة تحویل T گام زمانی محاسباتی و D طول دورة بهرهبرداری است. مقدار ایدهآل شاخصهای خطای مطلق حداکثر و خطای مطلق تجمعی برابر صفر و مقدار ایدهآل شاخصهای کفایت و راندمان برابر است. سناريوهاي بهرهبرداري برای بررسی رفتار جریان در شرایط تغییرات نیاز دو سناریوی افزایش و کاهش نیاز پاییندست تعریف شد. در سناریوی که سناریوی افزایش جریان است دبی ورودی به کانال و دبی آبگیرهای 5 و 6 در وضعیت اول به ترتیب برابر 0 / و 0 / متر مکعب در ثانیه بود که در وضعیت دوم به 0 / / و 0 / متر مکعب در ثانیه افزایش یافت. در سناریوی که سناریوی کاهش جریان است دبی ورودی به کانال و دبی آبگیرهای 5 و 6 در وضعیت اول به ترتیب 0 / / 5 و 0 / متر مکعب در ثانیه بود که در وضعیت دوم به 0 / 05 / و 0 / 05 متر مکعب در ثانیه کاهش یافت. در هر سناریو ابتدا وضعیت اولیه در کانال برقرار شد و سپس جریان ورودی کانال متناسب با تغییر نیازها تغییر یافت. مدل FSL برای استخراج دستورالعمل بهرهبرداری )برای تحویل دبیهای مورد نظر( در فضای مسئله شروع به جستوجو میکند و جوابهای مختلف را مییابد. سپس با استفاده از شاخصهای ارزیابی مطلوبیت این جوابها را بررسی میکند. پاسخی که مقادیر شاخصهای ارزیابی آن به مقادیر. Adequancy. Efficiency تعریف میشوند:

87 شاهوردي و همکاران: کاربرد روش يادگيري تقويتي براي تعيين... بهینة آن نزدیک باشد پاسخ بهینه است و به منزلة دستورالعمل بهرهبرداری انتخاب میشود. این سناریوها در هر روش بهرهبرداری میتوانند مطرح شوند. در این تحقیق فقط عملکرد روش برحسب درخواست بر این سناریوها بررسی میشود. يافتهها و بحث برای اجرای سناریوها مدل تهیهشدة FSL بهرهبرداری مناسب در هر سناریو استخراج شد. نتايج سناريوي اجرا و دستورالعمل در سناریوی در هر تکرار FSL با انتخاب کنشهای مختلف و اعمال آن بر محیط پاداشهای مختلفی را با استفاده از رابطة 9 دریافت کرد و بهتدریج دما )طبق رابطة 6( کاهش یافت. تغییرات پاداش و دما در طول فرایند یادگیری در شکل میآید. به منظور مشاهدة بهتر روند تغییرات پاداش میانگین متحرک پاداش نیز رسم شد. مدل در تکرار حدود 50 همگرا شد. پاداش حداکثر اولین بار در تکرار حدود 80 مشاهده شد که مقدار آن 784 است. 4 / 5 بازشدگی اولیة آببندهای و به ترتیب برابر 8 / 5 و سانتیمتر است. با افزایش دبی ورودی بازشدگی آببندهای و و آبگیرهای 5 و 6 افزایش یافت تا دبی مورد نیاز تحویل شود. تنظیم آببندهای تا به ترتیب در زمانهای 0 / 8 0 / 7 و 0 / 44 ساعت پس از شروع و تنظیم آبگیرهای 5 و 6 همزمان با آببند انجام میشود. زمان تنظیم مناسب سبب میشود تغییرات عمق آب هنگام تنظیم سازهها کاهش یابد و میزان تنظیم مناسب نیز سبب کاهش تغییرات عمق در طول دورة تحویل دبی میشود. نتایج تنظیم دریچهها و شاخصهای ارزیابی عمق در سناریوی در جدول میآید. جدول. نتايج تنظيم آببندها و شاخصهاي ارزيابي عمق در سناريوي آببند آببند آببند 8/ تنظيم اوليه )cm( 5 4 / 5 8 / 7/8 تنظيم ثانويه )cm( 5 5 / 4 56 / عمق ثانويه )m( 0 9 / /6 8 / 0 8 / 4 )%( MAE 0 / 9 7 / 4 )%( IAE حداکثر مقدار شاخص MAE برابر 8 / 4 درصد در آببند و حداقل آن برابر / 6 درصد در آببند نیز مقدار بین IAE 0 / 9 و 7 / 4 درصد به دست آمد. بازشدگی ثانویة آبگیرهای 5 و 6 در این سناریو به ترتیب / 9 و سانتیمتر بود. مقدار این شاخصها مناسب است. نتایج دبی آبگیرها در ساعت در جدول میآید. شکل. مقدار پاداش و دما در تکرارهاي مختلف بیستوچهار جدول. نتايج تنظيم آبگيرها و شاخصهاي ارزيابي دبي در سناريوي کمبود )%( مازاد )%( متوسط زماني دبي راندمان کفايت تحويلي /s( )m دبي ثانويه تثبيتشده /s( )m تنظيم ثانويه )cm( تنظيم اوليه )cm( 0 998 000 97 آبگير 97 / 9 7 / 0 5 0 4/ 7 000 95 09 آبگير 09 / 0 5 / 6 4 0 994 998 796 79 کانال پایيندست - - 0 7 000 989 05 کل کانال - - مقدار شاخصهای راندمان و کفایت در آبگیر 5 و 6 بسیار نزدیک به مقدار ایدهآل است طوری که در آبگیر 5 فقط 94 متر مکعب کمبود و در آبگیر 6 فقط 86 متر مکعب مازاد تحویل آب مشاهده شد. این وضعیت در کانال پاییندست و کل کانال نیز قابل مشاهده است. با توجه به اینکه از یک طرف وجود جریان غیر ماندگار در کانال اجتنابناپذیر است و از طرف دیگر تنظیم دریچهها فقط یک بار و به صورت دستی انجام میشود تأثیر جریان غیر ماندگار

88 تحقيقات آب و خاک ايران دورة 46 شمارة تابستان 94 را نمیتوان به طور کامل حذف کرد و همواره مقداری مازاد یا کمبود مشاهده میشود. تغییرات عمق آب در این سناریو در شکل 4 میآید. انحنای منحنی تغییرات عمق در این سناریو مالیم بود و در آببندهای و تغییرات ناگهانی در عمق مشاهده نشد. دلیل این پدیده تنظیم سازهها بالفاصله در هنگام تغییر عمق است. با توجه به اینکه بهرهبرداری در آببند همزمان با تغییرات جریان انجام نشد تغییر ناگهانی عمق روی داد. وجود تغییرات ناگهانی به دلیل این است که مدل زمان و میزان تنظیم آببندها و آبگیرها را طوری تعیین میکند که عمق آب را درون محدودة مجاز عمق کنترل کند و خطای تحویل دبی حداقل باشد. بنابراین هدف اصلی تأمین دبی است نه کنترل تغییرات تدریجی یا ناگهانی عمق. پس از اعمال بهرهبرداری و افزایش بازشدگی دریچة آببند عمق آب کاهش یافت و در عمق ثانویه تثبیت شد. در این سناریو تغییرات عمق پس از حدود دوازده ساعت به ترتیب در آببندهای تا در مقدار ثانویة / 9 / و / متر تثبیت شد. منحنی تغییرات دبی در شکل 5 میآید. تغییرات دبی عبوری به پاییندست از آببندهای و بسیار کم و به صورت تدریجی است. در آببند این تغییرات ناچیز است و نتايج سناريوي شکل 5. تغييرات دبي آببند و آبگير در سناريوي تغییرات پاداش و دما طی فرایند یادگیری در هر تکرار 6 در شکل سناریوی میآید. مدل در تکرار حدود همگرا شد. پاداش حداکثر اولین بار در تکرار حدود مشاهده شد که مقدار آن 998 بود. ترتیب در سناریوی دارای 80 7 بازشدگی 6 و 5 آبگیرهای 0 / 5 و 4 / در شرایط بودند سانتیمتر به اولیه و هر یک از آنها دبی 0 / متر مکعب در ثانیه را دریافت کرد. در طول بهرهبرداری آ گیب و دبی ثانیه د یب رهای / به / 5 از ورودی متر 0 / 05 به 6 و 5 مکعب در متر مکعب در ثانیه کاهش یافت. دبی درخواستی پاییندست / متر مکعب در ثانیه بود که در مدت بهرهبرداری تغییر نکرد. نتایج شبیهسازی در آببندها در جدول میآید. مدل با انتخاب بازشدگی مناسب برای آبگیرها تحویل دبی را با دقت باال انجام داد طوری که متوسط زمانی دبی تحویلشده در آبگیرهای 5 و 6 به ترتیب برابر 0 / 97 و 0 / 09 متر مکعب در ثانیه و دبی ثانویة تثبیتشده نیز برابر 0 / 97 و 0 / 09 متر مکعب در ثانیه بود. در کانال پاییندست و کل کانال دبی تثبیتشده برابر 0 / 79 و / 05 متر مکعب در ثانیه و متوسط زمانی دبی تحویلشده به ترتیب برابر 0 / 796 و / متر مکعب در ثانیه بود. شکل 6. مقدار پاداش و دما در تکرارهاي مختلف در سنايوي جدول. نتايج شبيهسازي آببندها در سناريوي آببند آببند آببند 4 تنظيم اوليه )cm( 0 69 / 6 60 / 4/ تنظيم ثانویه )cm( 5 / 5 6 / 0 عمق ثانویه )m( 7 6 / 8 / / 8 )%( MAE 9/7 4 / 4 / )%( IAE شکل 4. تغييرات عمق آب در سناريوي

89 شاهوردي و همکاران: کاربرد روش يادگيري تقويتي براي تعيين... آببندهای تا به ترتیب در زمانه یا 0 / 9 0 / 06 و 0 / ساعت پس از شروع بهرهبرداری انجام شد. تنظیم آبگیرهای 5 و 6 همزمان با آببند انجام شد. مقایسة زمان تنظیم در سناریوی و نشان میدهد زمان تنظیم آببندهای و در سناریوی کمتر از مقادیر متناظر آن در سناریوی است. در سناریوی آببند و آبگیرهای 5 و 6 نسبت به سناریوی شاخص MAE زودتر تنظیم شدند. حداکثر مقدار برابر / 8 و حداقل آن برابر / 8 درصد به دست آمد. در آببند حداکثر تغییر عمق به دلیل فاصلة زمانی بین رسیدن جریان افزایشی و تنظیم آببند بود و به صورت ناگهانی مشاهده شد در صورتی که در آببندهای دیگر رسیدن به حداکثر اختالف عمق و عمق هدف به سبب تنظیم بهموقع آببندها تغییرات ناگهانی بزرگ به وجود نیامد. تثبیت عمق در آببندها حدود دوازده ساعت طول کشید. IAE مقدار بین 4 / 7 و / درصد به دست آمد. با توجه به تغییرات زیاد عمق در این سناریو مقادیر در IAE و MAE این سناریو نسبت به سناریوی بزرگتر بود. بازشدگی ثانویة آبگیرهای 5 و 6 در این سناریو به ترتیب 6 و 7 سانتیمتر به دست آمد )جدول 4(. تنظيم تنظيم ثانويه جدول 4. نتايج شبيهسازي در آبگيرها در سناريوي دبي ثانوية تثبيتشده /s) (m متوسط زماني دبي راندمان کفايت مازاد کمبود )%( )%( تحويلي /s) (m (cm) اوليه (cm) 9 0 995 999 050 050 6 / 0 4 / آبگير 5 0 996 999 050 050 7 / 0 0 / 5 آبگير 6 58 0 99 998 09 کانال پایيندست - - 098 66 0 99 998 86 کل کانال - - 90 تحویلشده در دورة بهرهبرداری بیستوچهار ساعته به آبگیرها و د یب ثانویة تثبیتشده برای هر دو آبگیر به ترتیب برابر 0 / 050 و 0 / 050 متر مکعب در ثانیه بود. مقدار شاخصه یا راندمان و کفایت در آبگیر 5 به ترتیب برابر 0 / 999 و 0 / 995 به دست آمد. کمبود تحویل آب برابر 9 متر مکعب بود. منحنی تغییرات عمق در شکل 7 میآید. شکل 7. تغييرات عمق آب در سناريوي شکل 8. تغييرات د يب آببند و آبگير در سناريوي انحنای منحنی تغییرات عمق در این سناریو مالیم بود و در آببندهای و تغییرات ناگهانی در عمق مشاهده نشد. در این سناریو نیز تغییرات عمق پس از حدود دوازده ساعت به ترتیب در آببندهای تا در مقدار ثانویة / 6 / 7 و / 0 متر تثبیت شد. منحنی تغییرات د یب در شکل 8 میآید. تغییرات د یب عبوری به پاییندست از آببندهای و بسیار کم و با تغییرات تدریجی بود. متوسط زمانی د یب در مجموع در سناریوی مقادیر شاخصه یا MAE IAE و کمتر از سناریوی بود. از نظر شاخصه یا تحویل آب گزینة بهتر از گزینة است. در کل کانال در گزینة 8 متر مکعب مازاد در تحویل آب مشاهده شد در صورتی که در گزینة کمبود آب 66 متر مکعب بود. در مجموع میتوان گفت FSL مدل از نظر شاخصه یا عمق و دبی در هر دو گزینه عملکردی مناسب داشت و در گزینة بهتر از گزینه بود.

90 تحقيقات آب و خاک ايران دورة 46 شمارة تابستان 94 s نتيجهگيري در این تحقیق مدل ریاضی الگوریتم یادگیری (FSL) سارسای فازی برای تعیین دستورالعمل بهرهبرداری سازههای آببند و آبگیر با روش بر حسب درخواست در کانالهای آبیاری در محیط برنامة متلب توسعه داده شد. مقادیر بهینة زمان و میزان تنطیم سازه با استفاده از این مدل در کانال شبکة دز برای سناریوهای تعریفشده استخراج شد. نتایج با استفاده از شاخصهای کفایت راندمان خطای مطلق حداکثر و خطای مطلق تجمعی ارزیابی شد. تحلیل شاخصهای ارزیابی نشان میدهد نتایج این مدل دقت باالیی دارد دبیهای درخواستی و دبیهای تحویلی کم سناریوی ترتیب برابر طوری است. که اختالف در مثال حداقل مقدار شاخصهای راندمان و کفایت به به 0 / 994 و 0 / 989 دست آمد. حداکثر مقدار شاخصهای خطای مطلق حداکثر و خطای مطلق تجمعی به ترتیب برابر 8 / 4 و 7 / 4 درصد بود. نتایج نشان میدهد مدل FSL با دقت زیادی قادر به استخراج الگوهای بهرهبرداری برای توزیع و تحویل بهینة آب در کانالهای آبیاری است. بنابراین میتوان FSL از نتایج در عمل برای تنظیمات سازهها به صورت دستی برای روشهای برحسب درخواست استفاده کرد. فهرست عالئم و نمادها : شمارة تکرار وضعیت در تکرار s: عمل در تکرار a: : r پاداش + s: وضعیت در تکرار + α: عمل در تکرار + در تکرار : A مجموعة عملهای گسسته : R قاعدة فازی : مقدار تعلق در تابع عضویت فازی n: تعداد ورودیهای سیستم استنتاج فازی X: متغیر ورودی سیستم استنتاج فازی L: مجموعة فازی m: تعداد عملهای گسسته F(α) : تابع خروجی سیستم استنتاج فازی m عمل انتخابشده از میان : a ii قاعده ii : w ارزش عمل انتخابشده از میان iامین قاعده عمل گسسته برای m : مقدار دما : Q خطای ارزش عمل : y عمق مشاهدهشده y arg e : عمق هدف iامین عمل گسسته برای : dqc انحراف دبی درخواستشده از دبی تحویلدادهشده در آببند : dq انحراف دبی درخواستشده از دبی تحویلدادهشده در آبگیر : T گام زمانی شبیهسازی : MPA کفایت تحویل : MPE راندمان تحویل : QR دبی درخواستشده : M تعداد آبگیرها : QD دبی تحویلشده : N تعداد گامهای زمانی در یک دورة تحویل : MAE شاخص خطای مطلق حداکثر : IAE شاخص خطای مطلق تجمعی : D طول دورة بهرهبرداری REFERENCES Bur, C. M. (0). The Irrigaion Secor Shif from Consrucion o Modernizaion: Wha is Required for Success? 8h N.D. Gulhai Memorial Lecure for Inernaional Cooperaion in Irrigaion and Drainage. 7-. Clemmens, A. J., Kacerek, T. F., and Grawiz, B., and Schuurmans, W. (998). Tes cases for canal conrol algorihms. Journal of irrigaion and drainage engineering. 4(), -0. Derhami, V. (007). Inelligen Agen Based Conroller Design for Robo Navigaion. Ph. D. disseraion, Tarbia Modares Universiy, Tehran, Iran. (In + + : نرخ آموزش : ضریب تنزیل : Q ارزش در تکرار برای عمل a و وضعیت s در ( s, a ) تکرار : مقدار ارزش در تکرار برای عمل a و وضعیت Q ( s, a ) Farsi). Derhami, V., Majd, V. J., and Nili, M. (008). Fuzzy Sarsa learning and he proof of exisence of is saionary poins. Asian Journal of Conrol. 0(5), 55-549. De Vries, T. and Anwar, A. (004). Irrigaion Scheduling. I: Ineger Programming Approach. Journal of Irrigaion and Drain Engineering, 0(), 9-6. Glorennec, P. Y. and Jouffe, L. (997). Fuzzy Q- learning fuzzy sysems. Proceedings of he Sixh IEEE Inernaional Conference on. IEEE.

9 شاهوردي و همکاران: کاربرد روش يادگيري تقويتي براي تعيين... Haq, Z. U., Anwar, A. A., and Clarke, D. (008). Evaluaion of a geneic algorihm for he irrigaion scheduling problem. Journal of Irrigaion and Drainage Engineering. 4(6), 77-744. Kaelbling, L. P., Liman, M. L., and Moore, A. W. (996). Reinforcemen learning: A survey. Arxiv preprin cs / 96050. Mahur, Y., Sharma, G., and A. Pawde (009). Opimal Operaion Scheduling of Irrigaion Canals Using Geneic Algorihm, Inernaional Journal of Recen Trends in Engineering, (6): -5. Mohseni Movahed, A. and Monem, M. J. (00). Inroducing ICSSDOM model for performance evaluaion and opimizing irrigaion canals operaion, h naional congress on irrigaion and drainage, 6-7 Nov, Tehran, Iran, pp: 95-0. (In Farsi) Molden, D. J. and Gaes, T. K. (990). Performance measures for evaluaion of irrigaion-waerdelivery sysems. Journal of Irrigaion and Drainage Engineering. 6(6), 804-8. Monem, M. J. and Namdarian, R. (005). Applicaion of simulaed annealing (SA) echniques for opimal waer disribuion in irrigaion canals. Irrigaion and Drainage. 54(4), 65-7. Monem, M. J., Najaf, M. R., and Khoshnavaz, S. (007). Opimal waer scheduling in irrigaion neworks using geneic algorihm. Iran-Waer Resources Research, (), 00-0. (In Farsi) Monem, M. J. and Nouri, M. A. (00). Applicaion of PSO mehod for opimal waer delivery in irrigaion neworks, Iranian Journal of lrrigaion and drainage, (4), 7-8. (In Farsi). Suryavanshi, A. and Reddy, J. M. (986). Opimal operaion schedule of irrigaion disribuion sysems. Agriculural Waer Managemen. (), -0. Wang, Z., Reddy, J. M., and Feyen, J. (995). Improved 0 programming model for opimal flow scheduling in irrigaion canals. Irrigaion and Drainage Sysems. 9(), 05-6.